查看原文
其他

漫谈现代统计 “四大天王”之卡尔·皮尔逊篇

数学文化征文 好玩的数学 2022-07-17

本文为“数学文化阅读心得征文比赛”参赛作品,未经授权不得转载,点击图片查看征文比赛通知。

☞数学文化阅读心得征文比赛延期通知


漫谈现代统计 “四大天王”之卡尔·皮尔逊篇

——读《女士品茶——统计学如何变革了科学和生活》

作者:李殊勤

作品编号:025

投稿时间:2019.7.29



摘要

本文是笔者阅读萨尔斯伯格博士名作《女士品茶——统计学如何变革了科学和生活》所做随笔系列的第一篇。这个系列随笔主要记述精彩纷呈的统计世界里那些令笔者印象深刻的故事与传奇;试图去理解和还原现代统计的逻辑与思想;也不免有些偏重个人趣味的思考与评论,未见高明,是为“漫谈”,仍与读者分享,以求同乐。本篇含两大部分:第一部分为简要书评以及本系列随笔的缘起;第二部分漫谈现代统计奠基人卡尔.皮尔逊人生传奇,以及由他开启的现代统计的发源思想。


0

关于统计的迷思


这是一个最好的时代,也是一个最坏的时代;

这是一个智慧的年代,这是一个愚蠢的年代;

这是一个信任的时期,这是一个怀疑的时期;

这是一个光明的季节,这是一个黑暗的季节;

这是希望之春,这是失望之冬;

人们面前应有尽有,人们面前一无所有;

人们正踏上天堂之路,人们正走向地狱之门。

——狄更斯


统计,是数学作用于现实生活中的一场思想革命,它正持续的进行着,我们每个人亲历其中。但人们谈起它,也往往有着如狄更斯这样复杂的情愫:当普罗大众可以在不经意间谈论“风险”、“概率”、“相关”这些概念的时候,它早已悄悄地改变了人们关于科学、关于世界的底层信念;借着今天大数据、人工智能的春风,它必将如火如荼地蔓延开去,日新月异地改变我们的生活。而另一方面,统计可能是最不严谨的数学子学科,像“建立在沙土的摩天大厦”,很多本源的理论问题至今并没有得到令人满意的解答,也导致人们在工作生活中越来越广泛地使用统计的思想和模型的同时,产生了越来越多的怀疑和忧虑。


这场革命从何谈起呢?又将何去何从?《女士品茶——统计学如何变革了科学和生活》无疑给出了精彩而有趣的解答。书封内容简介称“这是一部统计学的史诗”,也“是一部叱咤风云的统计学霸的传奇故事书”。作者萨尔斯伯格博士(下文会简称“萨博士”)作为统计学家,在工业界做过资深研究员,在世界一流名校做过教授,可谓这场革命的亲历者和推动者,对现代统计学的发展脉络和核心思想有着深刻而独到的理解,又与这场革命涌现的多位杰出人物都有过交集,掌握诸多业内一手见闻。要了解统计,这样的书就算不是最佳的选择,也必然是值得一读的。


笔者一直有这样一个类比,数学世界其实是最接近武侠世界的地方——天才竞技场,靠“功夫”留名。但对我们普罗大众就太不友好:太过于高深莫测,哪怕想做“吃瓜群众”都太不容易。所以,有时要特别感谢像萨博士这样的资深圈内人士的“八卦精神”,堪比“百晓生”,打榜“统计百年英雄谱”,才让凡人世界不至于错过一段波澜壮阔、风起云涌、群星璀璨的精彩传奇。


萨博士大概深谙史蒂芬.霍金博士“每一个公式就吓跑一半的读者”的名言——全书没有任何一个公式甚至一个数学符号,照顾读者几乎达到无微不至的境界,甚至完全不惧读者“对数学知之甚少”。他说,这和笔者对于数学文化的理解是高度一致的。数学发展的最前沿当然只能由少数天才来推动,但一个社会、一国、甚至一个时代的数学水平却仍和大众的数学素养水平息息相关。那素养是什么?就是从学校体系里学的全忘完了,还能剩下的东西——它已经成为了我们自我知识体系的一部分,会影响甚至决定了我们的世界观。所以,大家不做数学,去做做数学的“吃瓜群众”也是大有好处的。


数学犹如武侠世界——天才竞技场,靠“功夫”留名


本文是笔者阅读该书的系列随笔的第一篇。这些随笔的写作目的有二:


其一,是该书读得特别愉悦。古人云“独乐乐不如众乐乐”,所以选取了书里自认为最精彩的传奇点评一番。整个系列主要围绕四位可谓现代统计开山立派的人物——卡尔.皮尔逊、费希尔、埃贡.皮尔逊和奈曼之间不得不说的“爱恨情仇”展开,带大家重温现代统计发源之时天才辈出、群星璀璨的黄金年代,在领略绝顶高手的思想交锋之中,体验统计学背后哲学思想之美。


当然,叙事完全是个人视角,评论完全是个人趣味,思考完全是个人拙见,所以欢迎读者存疑与讨论、批评与指正。所谓“奇文共欣赏,疑义相与析”,总算对得起萨博士这本好书。


好书当分享:独乐乐不如众乐乐


其二,是为了对这本书感兴趣的小伙伴们能更愉快地“吃瓜”。虽然萨博士在照顾读者方面已经是用心良苦,翻译在我看来也非常自然和流畅,但网上依然有不少读者认为本书读得很辛苦。我觉得可能原因:任何偏重哲学的思考的本来就烧脑——而这是本书的主旨,再者可能是读者对统计背景有所缺乏,加之全书场景宏大,人物和故事众多,就略显散乱,这些都会加大阅读的难度。


本文可作为阅读《女士品茶》的“前菜”,亦可作为“餐后甜点”;最希望有助于“消化”,抑或能增加点“食欲”或者“回味”,也是极好的。本文提及大部分事件出自萨博士的书,也有部分来自笔者补充阅读的英文资料。非严肃文章,恕时间和篇幅有限,不一一指明出处,但笔者还是以最严肃的态度,力求大家吃到最实在的瓜,哈哈。


以最严肃的态度,力求小伙伴们愉快的吃瓜



1

卡尔·皮尔逊篇


1.1  世界的本质是随机的吗?


谈统计,我们却不得不从一个哲学问题开始,因为它涉及整个学科存在的合理性。


如果我们拿这个问题去问任何一个统计学家,他/她一定会回答:是!


——否则,还要统计干什么呢?


但要大众文化接受这样的观念却并不容易。一者,自19世纪以来,以牛顿力学为代表的科学,应用于现实世界,在各行各业取得了巨大的成就,也让一种“决定论”的世界观深入人心——世界的本质就像一个大时钟运行着,于是,我们只需要少量的数学公式,不仅可以描述现实,还能预测未来。二者,“随机”在人们日常的理解中就是“未知、复杂、毫无规律”的同义语。比如,讲故事的时候说“海盗把宝藏随机埋在了海岛上”——基本就是说,你绝无可能找到宝藏了(假设根本没有藏宝图,海盗都是打死不说)。那么,就算世界上还有很多未解之谜,也不能说本质是“随机”的吧。


“钟表”般运行着的宇宙

所以,这个问题还真是“烧脑”啊!不过,这也是为什么统计学和这本书有意思的原因——正如萨博士在自序中所说:


但如果我们能注意到下面两个事实,事情理解起来,可能就没有那么困难了。


第一个事实非常简单:这个钟表的世界”也有点太不精确了吧且这种不精确也太普遍又太显而易见了:回忆一下我们中学做过所有定量的实验(物理、化学等等),你大概从来没有一次测得的结果能恰好等同理论值。老师会告诉你,那是实验的“误差”造成的。通常,写上几页厚厚的误差分析能帮你拿个高分:大意是,如果观测和计量更精确,误差就会减小,直至消失为0。顺便说一句,把实验观测值和理论值的差值作为“误差函数”来处理这个发明源自于大数学家拉普拉斯。他对这些“随机”的、无关紧要的误差函数做过深入的研究,给出了首个概率分布。


法国大数学家 拉普拉斯 

Pierre-Simon Laplace (1749~1827)


于是我们就有了第二个事实:随机,其实是有规律的我们可以用概率分布——精确的数学公式来描述它也因此,有人会把拉普拉斯作为是统计思想的开创者。不过,在本书里,萨博士把这一荣誉归属于卡尔.皮尔逊,为什么呢?又要说回到技术背后思考问题的哲学。


回忆一下,你做实验的时候,有没有过一丝怀疑:无论怎样加强测量精度,“误差”有可能是根本不能消除的?在“决定论”根深蒂固的情况下,很难这样去怀疑:通常出现这样的情况,你的老师会微笑着告诉你:呵呵,那一定是你的实验做错了。



其实,单从“误差”这个名字本身,我们就知道,其思考哲学一定还是在“决定论”框架下——我们绝不会把“误差”作为被观测量的一部分或某种自带属性去理解,而是实验中应当尽量消灭的东西。当然,我们不能苛求前人(如,拉普拉斯),因为关于这个怀疑的发现也需要我们不断提高实验手段和测量精度后才能做出——现代的事实是,随着我们实验技术的提高,测量到的误差没有像预计中的减少,甚至还增大了,且永不消除。这怎么解释呢?


那么回过头来,想想我们本节的标题:是不是就有种恍然大悟的感觉?让我们比“误差”随机走得更远一点:有没有可能,被观测量本身就是随机的呢?也就是说,我们做实验能观测到的其实应该是一个“分布”。那么,所谓的“误差”其实既不“误”也不”差”,只是被观测量的随机本质的反映。所以不管我们怎么提高观测精度,当然都不可能消除这种随机性,即所谓“误差”;且随着精度提高,随机性被观察得更清楚,所谓“误差变大”也就顺理成章了。


这是卡尔.皮尔逊做出的回答,也是我们今天统计学革命之所以合理的哲学基础。


啊哈!这是多么划时代的观念!你是不是已经开始好奇卡尔.皮尔逊是何方神圣了。或者你非常惊讶,他怎么能想有这样的天才的想法呢?其实,这个想法也绝非无中生有,横空出世。源自哪里?我们有必要先说说皮尔逊的老师高尔顿爵士在优生学上的发现。


1.2 思想缘起高尔顿:回归与相关


“维多利亚时代的天才”高尔顿爵士 

Sir Francis Eugene Galton(1822~1911)


弗朗西斯.高尔顿是个典型的“维多利亚时代的天才”——多是独立而富有的贵族,以科学研究为乐,常以全才或广博著称,在多个领域都颇有建树。他还有个更为著名的表哥——查尔斯.达尔文——《物种起源》的作者。高尔顿非常崇拜他的表哥,并终身致力于为进化论找实证。他的一项早期工作就是去收集社会名流大家的家谱,整理那些公认的聪明的父子的数据。但鉴于当时还没有智商测量的工具,高尔顿很快意识到这个工作太过于困难,于是就改为收集更容易测量的家庭成员的身高数据,试图发现一个公式,能通过父母的身高预测孩子的身高。于是他和助手做了大量的统计图表。


在这个过程中,他发现了一个他称之为“均值回归”的现象:


他还做了思想实验,如果高个子父亲生出的儿子更高,矮个子的父亲生出的儿子更矮,这样的规律代代保持,用不了几代,人类就要出现越来越高和越来越矮的人。但这种现象实际没有发生,平均来说,人类身高基本稳定。所以只有非常高的父亲后代平均身高比他矮,而非常矮的父亲后代平均身高比他高,才会保持这样的结果。正是均值回归维持了物种的稳定,确保了一个物种代与代之间的“相似性”。他发现了描述这种关系的一个数学度量,称之为“相关性”。


高尔顿的发现:均值回归

“回归”、“相关”这些理念是不是与我们之前讨论过 “随机”、“分布”已经高度一致了?虽然这些观念最早是由高尔顿提出的,但最终将该思想完整地以数学公式形式清晰地表达出来、且继续发扬光大的人是卡尔.皮尔逊。


皮尔逊1892年出版了他的名作《科学的语法》——就以流畅的文笔、平实的语言阐述和总结了前文所述的所有了不起的原创性想法。这本书在当时是有轰动效应的非常受欢迎的科学作品,多次再版,到今天仍被认为是“介绍科学和数学最伟大的书籍之一”。本系列的后篇将讲述的另一位“统计天王”奈曼——他在回忆起他学生时代读到这本书,印象颇为深刻,尤其对于出生虔诚的天主教家庭的他,可谓是巨大的思想冲击——应该对他日后选择投身统计大有助力吧?


皮尔逊的名作《科学的语法》多次再版,到今天仍然是“介绍科学和数学最伟大的书籍之一”


1.3  才华横溢的卡尔.皮尔逊


说完了关于统计的哲学思想发源,我们再回到卡尔.皮尔逊(1857~1936)一生的传奇。他的人生轨迹,用我们今天的标准来看,超级人生赢家:出生富裕的中产家庭,学生时代是超级“学霸”,还是个酷炫前卫的“文艺青年”,有良师益友相伴,事业发展极其顺利,长期占据统计界一哥的地位。但很奇怪的是,萨博士作为统计圈内人士,说他读博的年代(20世界60年代),皮尔逊已经甚少被提及,今天就是教科书里也不多见。这是为什么呢?很值得我们八卦和思考一番。


学生时代的皮尔逊,就像你身边最为艳羡(爱慕或者嫉妒,可能取决于性别,哈哈)的同学:1875年剑桥大学入学考试,以第二名的成绩荣获奖学金入读国王学院;四年之后以数学一等荣誉中第三名的优异成绩毕业。


此君绝非死读书的等闲之辈,兴趣广泛,数理文史无所不通,博闻强识,歌德卢梭烂熟于胸,思想深邃,痴迷研究哲学宗教,才思敏捷,能言善辩。虽然优秀如此,但笔者觉得,他身上最迷人的特质应概括为“放纵不羁爱自由”:蔑视权威,反抗传统,他在剑桥读书的一件事,略见一斑。


当年,神学还是剑桥每个学生的必修课,并且校方要求每个学生都要出席教堂礼拜。皮尔逊虽然醉心宗教,但他强烈反对这样的强制规定。在他不断的据理力争下(甚至借用父亲的帮助),校方最终让步,废止了这样的规定。但令校方无比错愕的是,他依旧从无间断地参加神学课和教堂礼拜。“我热衷宗教活动,但我坚绝捍卫你不参加宗教活动的自由!”是何等情怀!


才华横溢的卡尔.皮尔逊 Karl Pearson(1857~1936)


考虑到该学霸同学喜好宗教和政治的文艺青年特质,大学毕业后选择到德国攻读政治学的博士,也并不让人意外。在那里,他又深深地迷上了卡尔.马克思,为表达敬意,23岁的他将自己的名字都由“Carl”变成了马克思的“Karl”,且他这一生在政治观点上,始终保持着对受压迫者的同情——这对于出身富裕阶层的青年才俊尤其难得。


拿到政治学博士后,他回到英国,开始做教授。对了,你可能好奇他教啥?德国文学、政治学、中世纪语言、政治学、历史、马丁路德宗教思想……难道全面走文科路线了?并没有,他同时也开数学、物理、机械学、热力学……同时,他还有大量的产出,散文和书不断发表。总之,33岁之前已经做到了应用数学系的讲座教授和系主任。这就是全部吗?当然不是。他中间还去学习了下法律,考到了律师执照,虽然终身从未执业。另外,还组织青年男女讨论俱乐部,一起探讨哲学和政治。这件事在今天看来没什么,但在相当保守的维多利亚时代,在英国的中心伦敦,让女生在没有年长妇女陪同的情况下参加沙龙,可真是了不得。更妙的是,他在这里结识了自己未来的妻子,哈哈,所以萨博士打趣说“这表明他成立俱乐部的动机可能不止一个”。


不过,说了半天,似乎好像没和统计学扯上啥关系。对的,他全面转向统计研究是从33开始的。两个机缘——一来,他读到了高尔顿爵士的书,开始对统计产生了浓厚的兴趣;二来,当然也是由于他对统计的热情,他和研究生物统计的同事威尔登成了好友。这样,良师益友齐备,学术进步自然是一日千里。且他一如既往保持着他的高产出,发表了一系列论文和专著(其中包括前文提及的名的畅销书《科学的语法》),系统性地整理、总结并发展了前人(比如,埃奇沃思、高尔顿)所有的统计学成果,为现代统计奠定了思想基础。千万不要认为总结前人的结果似乎不具有原创性,能归纳整理已有结果且发展出体系也可以是被人铭记的杰出的工作,就像欧几里得《几何原本》。


鉴于皮尔逊这些杰出贡献,有资料会将他与两位统计届前辈埃奇沃思、高尔顿并称为统计的“前三杰”(那“后三杰”是谁?敬请关注本系列后续篇章),且赞他是经典统计的集大成者。而按本书作者的观点,从统计哲学的角度,他更应该算作是现代统计的奠基者。


皮尔逊和高尔顿爵士在1910年或1911年


40岁之前,皮尔逊已经是皇家科学院院士,两获达尔文奖章。但出现了一个问题,他在皇家科学院宣读过的获奖文章,却由于数学过多,被生物学家们认为不适合在生物杂志发表。于是,1901年,由高尔顿成立的生物统计信托基金慷慨资助,高尔顿、威尔登以及皮尔逊三人共同担任编委,于是,统计学界最具有影响力的杂志之一——《生物统计》(Biometrika)就此诞生了(当然,在他们那个的年代,肯定是没有“之一”的) 。他还大力参与管理工作,倡导促进统计成为数学一个独立的分支、组建高等研究机构以培养更多高学历高水平的人才:他自己成立了生物统计实验室,并管理着高尔顿在优生学系成立实验室。


1911年,他在统计学界的影响力几乎达到了顶峰:由于两位良师益友威尔登和高尔顿业已去世,皮尔逊成了《生物统计》唯一的编委和生物统计信托基金的唯一使用者,并在优生学系出任“高尔顿”讲座教授,同时把自己的实验室和高尔顿的实验合并成立独立的应用统计系,担任系主任。他身兼所有这些身份,一直到去世前三年。


1.4 屠龙少年终成龙?


大概是声望与权力膨胀,也无限放大了他的控制欲,在接下来的20年,皮尔逊把他的实验室以及所有同事都变成了他个人意志的延伸,把《生物统计》变成了他一个人的杂志——只发表他认可的文章,得不到认可的观点在整个统计界都不能发表;除此,还充斥着大量他自己写的各式评论——比方,他依旧兴趣广泛,所以《生物统计》也发表过他的考古发现,当然还有更多的是他对自己看不惯学术观点毫不客气的批评。


对他在后世声名影响最大的,莫过于他和日后另一大“统计天王”费希尔(本系列下一篇的主角)旷日持久且刻薄激烈的学术争斗。今天已经搞不太清让他们从最初的友好到交恶的具体事件。当然他们并无任何私仇,争执的核心肯定是关于学术的,很可能的原因是,皮尔逊看不懂、同时也看不上费希尔文章里用到的颇为晦涩和复杂的数学。但可见的事实是,皮尔逊除了将费希尔的一篇文章作为他和同事工作的补充附录发表以外,《生物统计》从来没有发表过任何费希尔的文章,但对费希尔文章的批评却刊登得不少。而且,费希尔早期那些对后世影响深远的统计学名篇没有在任何有份量的统计杂志发表,甚至是他自费才登载在爱尔兰的某名不见经传的学报,又或者是发表于诸如《心灵研究会会刊》这种看名字怎么都和数学都沾不上边的地方。

1910年如日中天的统计一哥:皮尔逊


这场学术之争,最终以费希尔的胜利告终,皮尔逊很多的批评和观点被证明是完全错误的。这也彻底地导致了,曾经作为现代统计开山立派一代宗师的皮尔逊,在后起之秀大展拳脚之时完全被抛弃被冷落,晚景凄凉;而在后世也被迅速被遗忘。


真是可怜可悲可叹啊。


插句题外闲话,所谓“有人的地方就有江湖”,而数学界是最接近武侠世界的地方,所以也许数学家之间的学术争斗和江湖争霸有时也并无二致。皮尔逊和费希尔的斗争,也让人不由想起胡克和牛顿的斗争,甚至结局也非常类似:今天大家对于胡克的印象,除了关于弹力的胡克定律,几乎不剩任何别的东西。


所以结论是什么?善待那些数学比你更好的晚辈,最起码,千万不要和他们为敌。哈哈,只是开个玩笑,活跃一下气氛。本系列随笔的下面几篇,我们会谈谈另外三位“统计天王”费希尔,埃贡.皮尔逊和奈曼,也有机会谈到费希尔与其他两人的学术争斗,我们还是可以从大师们身上学习到正确的处理争斗的艺术的。


敬请期待吧。


请读者为作品025号打分

(打分结果将作为评奖的指标之一,也欢迎大家在留言区发表自己的看法)


我也想参赛↓↓↓

数学文化阅读心得征文比赛


传播数学,普及大众

长按识别二维码关注我们

欢迎把我们推荐给你身边的朋友


▼点击阅读原文发现更多好玩的数学。


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存